Metric Elicitation (ME) is a framework for eliciting classification metrics that better align with implicit user preferences based on the task and context. The existing ME strategy so far is based on the assumption that users can most easily provide preference feedback over classifier statistics such as confusion matrices. This work examines ME, by providing a first ever implementation of the ME strategy. Specifically, we create a web-based ME interface and conduct a user study that elicits users' preferred metrics in a binary classification setting. We discuss the study findings and present guidelines for future research in this direction.
translated by 谷歌翻译
考虑到现实世界中的折衷方案的学习问题,应该培训哪种成本功能以优化?这是机器学习中的度量选择问题。尽管有实际的兴趣,但关于如何为机器学习应用选择指标的正式指导有限。本文概述了度量启发作为选择最能反映隐式用户偏好的性能度量的原则框架。一旦指定,评估指标可用于比较和训练模型。在本手稿中,我们正式化了指标启发的问题,并设计了新的策略,以使用成对偏好反馈而不是分类器来启发分类性能指标。具体而言,我们提供了新的策略来引发二进制和多类分类问题的线性和线性划分指标,然后将其扩展到一个框架,该框架在存在多个敏感组的情况下会引起群体 - 赛绩效指标。我们讨论的所有启发策略对于有限的样本和反馈噪声都有坚固的效果,因此对于现实世界应用而言是有用的。使用来自二进制,多类和多类 - 属群分类设置的可行混淆统计集的工具和几何表征,我们进一步提供了策略,以从更广泛的复杂,现代的多类指标中引起更广泛的复杂,现代的多类指标,这些指标由四边形功能由四边形功能由混淆统计功能定义。利用其本地线性结构。从应用程序的角度来看,我们还建议使用指标启发框架来优化可以进行深层网络培训的复杂黑匣子指标。最后,为了使理论更接近实践,我们进行了一项初步的房地产用户研究,该研究显示了度量启发框架在恢复用户在二进制分类设置中的首选性能度量方面的功效。
translated by 谷歌翻译
度量启发是最新的框架,用于启发分类性能指标,可以根据任务和上下文最好地反映隐性用户偏好。但是,可用的启发策略仅限于预测率的线性(或准线性)函数,这实际上对包括公平性在内的许多应用可能是限制的。本文制定了一种策略,以引发由二次功能定义的更灵活的多类指标,旨在更好地反映人类的偏好。我们展示了它在启发基于二次违规的集体 - fair量指标中的应用。我们的策略仅需要相对的偏好反馈,对噪声是强大的,并且达到了近乎最佳的查询复杂性。我们将此策略进一步扩展到启发多项式指标,从而扩大了用例以进行度量启发。
translated by 谷歌翻译